数值变量卡方分箱

您所在的位置:网站首页 python 等距分箱 数值变量卡方分箱

数值变量卡方分箱

#数值变量卡方分箱| 来源: 网络整理| 查看: 265

小编近期接的项目中很多要求要用R来做(小编可是Python高手!),所以基本上将Python代码用R重写(翻译)了一遍。小编差不多三年没正儿八经地用R了,但R是小编最喜欢也是最早使用的统计工具。关于工具:Python、R和SAS,小编都能用一点点(生活所迫!),所以有关工具使用、建模、分析的,欢迎交流;有项目合作的,也欢迎交流!

卡方分箱的概念,请参考数值变量-卡方分箱。当然可以将其中的分箱标准-卡方改写成基尼方差、熵方差等。

算法

这里把具体的实现算法再重述一遍:

(1)将数值变量按照等距方式分成SplitNum段(比如100段),此为初始分箱;

(2)计算每段的总样本数、好样本数、坏样本数、样本占比等统计值;

(3)计算相邻两段的卡方值,合并卡方值最小的相邻两段;

(4)重复步骤(2)和(3),直至分段个数=BinPcntMin,若某段的样本占比=BinPcntMin。

R代码

1、数据列等距分割函数:

splitCol


【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3